佳文推介 | 面向遥感大数据的地学知识图谱构想
引用格式:
王志华,杨晓梅,周成虎.面向遥感大数据的地学知识图谱构想[J].地球信息科学学报,2021,23(1):16-28. [ Wang Z H, Yang X M,Zhou C H. Geographic knowledge graph for remote sensing big data[J]. Journal of Geo-information Science, 2021,23(1):16-28. ]
DOI:10.12082/dqxxkx.2021.200632
点击文末“阅读原文”可进入期刊官网下载该文,也可在中国知网下载全文。
当前海量遥感观测数据到地学知识的转化过程,已成为一个关键制约瓶颈。从本质上看,遥感图像显示的是某一区域特定地理环境的信息综合体。它是地球表壳的大气圈、岩石圈、水圈、生物圈以及社会经济环境的综合反映。无论哪一种遥感信息都不是孤立存在的,而是作为区域地理环境的一个有机组成部分表现在图像上。不同专业由于研究对象和研究任务不同,各自从不同的专业角度,运用不同的专业方法和知识,从这一“综合信息”中各取所需,寻找与提取各自相关的专题信息,以解决各自的实际应用问题。例如,遥感影像在人文地理学家眼中是各种不同土地利用的数据源,而在地貌学家眼中是各种不同地貌的数据源。缺乏已有专业知识的支撑,很难在遥感综合信息体中获取更新、更广、更深层次的地学知识。
为此,本文提出一种面向遥感大数据的地学知识图谱构想,拟将地学知识以具有空间信息的形式反映在空间化的图模型结构上,用以展示地理对象空间特征、类型特征、地学属性特征的空间分布、关系、变化、规律,使其能够承载不同类型和层次的地学知识,并分别借助图模型结构方式进行这些知识的表达和关联,使其具有查询检索、知识推理、动态更新、知识拓展等功能,并尝试以此突破当前遥感解译的思维局限,为新时代地学知识驱动下的遥感大数据高精度智能解译服务,并最终实现地学知识的自动化精准和积累。
01
专家智能解译系统
专家智能解译系统,是模仿遥感解译专家在遥感解译过程中的视觉处理以及大脑决策过程,从而实现遥感影像的计算机自动解译。现阶段的“专家智能解译系统”,多是静态的应用地学知识,寄希望将现有的地学知识一次性转为可用的影像解译规则集,直接实现遥感影像的自动化解译结果,缺乏地学知识的校验和更新机制。事实上,已有的地学知识也会存在一些不确定性,并且也会随着地理学家的研究和认知而不断深化,甚至重改。当地学知识体量庞大时,缺乏校验和更新机制,必然会导致基于地学知识编制的专家智能解译规则出现冲突的情况。此外,由于地学知识地域性非常强、不确定性因素大,很难具有适用于大区域的固定、通用模式,导致当前阶段的专家智能解译系统的解决思路很难进行推广,多是停留在个别的局部案例研究方面。这些原因综合导致了专家智能解译系统精度有限,并且难以实现知识的积累和更新优化。
02
地学信息图谱
地学信息图谱是由我国现代地图学、遥感科学和地理信息科学的奠基人——陈述彭先生借鉴其它学科领域的图谱思维而提出的一种地球信息科学理论。它认为地球信息科学类似化学中的元素周期表、生物学中的基因图谱那样,借助这样一套规律或元素,可以进行地学规律的深入分析认知,例如地学规律的推理、反演,甚至预测。这其中,比较有代表性的就是河流水系的图形化图谱认知。受地学信息图谱启发,结合人对遥感图像的视觉认知,骆剑承等提出一种遥感信息认知模型——遥感信息图谱。其中“图”是指遥感信息在地物位置、形态、结构、空间分布等属性上的表征,遥感信息的“谱”,是指遥感信息在地物光谱、时间、功能等属性上的表征。并由此提出遥感认知“图谱转化”的3个阶段:“由谱聚图”→“图谱协同”→“认图知谱”。通过辨认已有的遥感“知识图”开展知识驱动的地物识别和专题信息提取智能化、精准化。
“地学信息图谱”面对的是整个地学领域知识的框架组织,并不能直接用于遥感影像解译的实践;“遥感信息图谱”借鉴了“地学信息图谱”的图谱化思维方式,从遥感影像的空间图和波段谱、时序谱中提炼地物目标的特征或者图谱模式,从而构建面向遥感信息的图谱,可直接用于遥感影像的解译实践。但是这种遥感信息图谱构建的数据源和构建的图谱本质都是来源于遥感数据,而遥感数据所能直接获取的地学信息是有限的,由此限制了已有地学知识在遥感解译过程中的融合。
知识图谱(Knowledge Graph)是通过有向图的方式表达实体、概念及其相互之间语义关系的数据组织形式,其中节点代表实体或者概念,边代表实体/概念的属性或者彼此之间的关系。从本质上讲,知识图谱是一种语义网络(Semantic Network)。知识图谱的过程主要包括知识抽取、知识融合、知识推理应用三个阶段。通过知识抽取,可获取实体、关系、属性等知识要素;通过知识融合,可消除实体、关系、属性等指称项与实体对象之间的歧义,得到一系列基本的事实表达;通过本体抽取、知识推理和质量评估形成最终的知识图谱库,实现知识的推理检索等应用。
地学知识作为科学知识的一种,同样也亟需其它科学知识所需要的查询检索与推理等功能。在语义网络或知识图谱出现伊始,就有相关的地理信息研究学者进行跟进研究,并将其称之为“地理知识图谱”或者“地学知识图谱”。这其中,尤其是将网络的地理信息和知识转化为知识图谱的表达和服务最为热门。其研究的主要目的是借助知识图谱的概念和相关理论方法,实现多源异构的大规模地理知识的图谱构建,用于融合语义关系和空间关系的地理智能搜索和地理知识自然语言智能问答,最终为智能虚拟地理环境系统的构建提供理论和技术支撑。
总体而言,传统的专家智能解译系统将目标锁定在专家解译的决策过程和规则上,属于一种浅表层的模仿,没有深入到地学专家所拥有的地学知识才是遥感智能解译的关键上来;地学信息图谱则将专家的地学知识进行系统化、抽象表达,进而实现推理、反演甚至预测等功能,是一种地学知识组织和计算的构想;“遥感信息图谱”则从遥感影像可获取特征角度构建了这样一种面向遥感信息提取的“地学信息图谱”;而知识图谱的引入则将面向整体地学知识的“地学信息图谱”这种构想变的更加切合可行,即可计算性。然而,这种新的思路尚未应用于遥感的智能解译实践中。在当前时代背景下,地学知识非常丰富,遥感影像海量获取,高性能计算、云计算、云存储都成为现实,然而传统算法思维却因地学知识融入困难导致遥感影像智能解译精度和实用性受限,这使得地学知识图谱驱动下的遥感大数据智能解译显示出非常广阔的前景。
01
地学知识图谱承载内容
地学知识图谱的核心就是使用图模型思维更好地表达和利用地学知识,所以承载何种地学知识是构建地学知识图谱首要考虑的问题。而如何将这些地学知识进行分门别类则又是地学知识图模型表达的首要问题。根据地学知识的抽象程度,将地学知识依次划分3个层次:数据性知识、概念性知识以及规律性知识。
地学知识图谱承载的地学知识及其层次划分
地学数据性知识是指人们对一定地域范围内的特定地理实体的一种实例化的认知结果或其属性度量的结果。例如某地域范围内的土地利用专题数据、DEM数据等。样本是数据性知识中能够驱动遥感大数据解译的一种非常重要的关键性数据。它是地学专家通过多种数据的综合推断或者实地调查、测量后的含有地理位置的综合认知、测量结果。凭借其中的位置信息可与同样包含位置信息的遥感影像数据联系在一起,即将地学专家的认知空间与遥感影像空间联系在一起。
地学概念性知识是指人们对具有相似或者相同属性的某一类地理实体的认知和定义,或者一定地域范围内的所有地理实体类型的系统性认知和定义。概念性知识是连接地学领域与遥感领域的纽带,它们不仅是地学领域研究或者土地管理所使用的地学知识标准,也应该是遥感解译的结果能够为地学信息和知识获取所服务的标准和最终目标。
地学规律性知识,是人类对地表感兴趣目标或现象在时空分布及变化规律的高度抽象认知,例如植被类型随海拔高度变化的山地垂直带谱、种植作物的农事历区域性差异以及各种自然区划等。这类知识是发挥地学知识以“由上至下”的形式指导遥感影像解译的关键。另外,这类规律性地学知识对遥感解译结果的合理性判断方面具有重要推理意义。一个最好的例证就是在山地垂直带谱的帮助下,进行山地区域的植被精细分类。
02
地学知识图谱的图模型结构
知识图谱的图模型结构表达对地学知识的融合推理功能发挥具有重要意义。根据以上地学知识图谱承载的内容,可分别对其进行数据性知识、概念性知识和规律性知识的图模型结构表达。
数据性知识可借助地理实体这一概念进行表达。地理实体是地学专家为了描述和表达地理世界中具有特定空间与时间范围、形态、过程、关系,以及相关属性地理现象的实体化抽象。它不仅包含着几何实体,即地理实体在空间上的位置、边界,同时还包含着属性信息,例如地貌类型、辐射反射率等。将地理实体表示为图模型中的节点,不同地理实体之间的联系表示为图模型中的边,可以有效地表达数据性知识,并以此克服不同数据源之间的地学知识歧义性。由于认知和管理不同,地理实体在空间上呈现多尺度性,同时还经常存在交错性。此外,地理实体还具有类似生命期的时间属性。
概念性知识的图模型结构表达是将承载知识价值密度较低的数据性知识上升为知识价值较为密集的高层知识的关键一环。将其进行图模型表达,利于地学知识图谱的功能表达,例如图模型的推理功能用于目标识别,或者地理实体丰富、更新变化后的类型、模式自动化更新,即所谓的数据驱动知识发现。
规律性知识是地学知识的最高层级,也是价值密度最大的部分,同时其抽象程度也最大。将规律性知识进行图谱化表达,可以打通不同数据性知识、概念性知识以及规律性知识之间的结构不统一的壁垒,实现整体知识图谱的表达形式统一,是存储知识、使用知识进行遥感大数据自动分析和更新地学知识的关键。
03
地学知识图谱的功能机制
地学知识图谱能够发挥的知识查询、推理、校正、拓展功能是其不同于传统的地学数据库共享和传统零散的地学知识辅助遥感解译的区别,也是构建面向遥感大数据的地学知识图谱的最终目标。
知识查询检索是地学知识图谱进行知识输出,从而用于遥感大数据自动分析的基本功能。根据地学知识图谱承载的内容和表达的结构,借鉴当前的知识图谱查询技术,可实现地学知识中的地理实体属性查询,地理实体之间的空间关系查询,对某一类地理实体的概念查询,以及规律性知识查询。
推理原理是利用知识图谱中的地理实体、概念、规律之间的抽取关系,进行相互之间的判断,这是从一般规律到个例识别,以及个例总结到一般规律归纳的过程。当新获取的地学知识要积累入已有的地学知识图谱中时,可以利用已有的知识进行推理,通过与新获取知识的差异对比,定位出知识分歧的位置,为后续的知识更新和校正奠定基础。这种分歧知识定位既包括同专题的数据性知识之间的歧义,同时也包括不同专题的数据性知识之间的歧义,例如土地利用/覆盖专题数据与地貌专题数据。
在结合地学知识图谱的推理功能,发现歧义知识后,引入校正机制,可以促使地学知识图谱的知识积累并且随着这种积累越来越精准,从而突破当前的地学数据共享的知识千差万别导致的难以积累知识和精准知识的困境。
地学知识图谱的知识拓展是指当出现新的数据性知识后,现有的地理知识图谱中的地理实体、概念/模式、规律性知识因为不完备而无法承载,只有进行相应的拓展方能实现新知识的承载。因为地学知识图谱采用图模型的结构进行表达,这种知识的新增相当于在原有的知识图谱上进行节点的新增,以及与新增节点关系(即边)的新增,并不会覆盖丢失原有的知识。又因为地学知识图谱有充分的知识查询检索、推理、校正机制,可以充分保证当前的拓展不会与原有知识体系形成冲突,从而使得已有的地学知识图谱更加完备。
01
地理实体的构建
地理实体具有时空多尺度性,高维特征明显。地理实体的表达是一种在具有5维或6维特征空间中节点与边的构建过程:空间的2维或3维+空间尺度1维+时间1维+时间尺度1维。这种高维度的复杂性极大地增加了地理实体的构建难度。此外,现有的地学知识来源多样,认识标准和获取手段都不尽相同,使得地理实体在高维度空间中的边界往往不一致,属性特征也难以对齐。
开展不同专题数据的精度评价,以精度最高、尺度最精细的专题所反应的地理实体为基础构建地理实体是一种容易联想到的解决思路,但如何客观地开展这样的精度评价并非一件易事。承认这种空间不一致性的客观存在,借鉴空间数据的不确定性原理,引入边界的模糊机制或者概率机制,并借助地学知识图谱的推理、校正、拓展功能,逐步逼近真实边界和属性是一种颇具前景的思路。
02
知识层级间的推理
这种推理包含了体量巨大的数据性知识,牵涉的地理实体和属性较多,复杂程度本身就高;推理涉及的地理实体具有空间和时间的多尺度性,相互之间的关系有强有弱,并且多数是间接的弱相关,而不是直接的强相关,这与现有的知识图谱理论中节点之间明确的关联关系极不相同;此外,地表区域具有异质性,不同区域的数据和规律往往并不相同,相应的推理计算过程也难免会存在差异性,这进一步加剧了知识层级间推理的难度。
传统的区域划分思路为解决地表区域异质性导致的知识层级间推理的困难以及大体量知识处理困难,提供了现成的思路,但这种思路亟需解决的一个难题就是区域划分的尺度该如何选择;针对地理实体的跨尺度关联关系强弱不同的问题,则可以引入概率机制,进行概率推理,这方面一个比较有前景的方向就是概率图模型。
01
促进地学知识精准化
地学知识图谱的初始构建依赖于大量的现有地学知识,尤其是数据性知识。然而,这些知识的来源、认知标准等都不相同,甚至存在一些矛盾。因为地学知识图谱的统一表达,尤其是地理实体为统一承载体,不同专题、概念、规律的知识得以交叉融通、相互校验,现有地学知识的各种矛盾或冲突也会在这个过程中集中凸显。为了实现知识图谱的表达和推理功能,这种矛盾和冲突也必须在这个过程中进行消除或者采用一定的手段进行处理。因此,构建地学知识图谱的过程也是一种地学知识精准化的过程。
02
提升遥感解译精度和实用性
遥感数据分析的主要目的就是建立遥感影像空间到人类主观认知的地学空间的映射关系。人类主观认知的地学空间多是从地域空间对人类可发挥的功能角度出发,而遥感影像多是从地物客观表象的自然属性角度描述。尽管功能和表象多数情况下是相耦合呼应的,但由于人类的主观认知归类问题,也还存在大量的不一致现象,“同物异谱”与“异物同谱”就是这类问题的经典总结。地学知识图谱承载的概念性知识和规律性知识,可以有效地利用地理实体在空间和时间上的群体特征,以及不同群体之间的时空相互关系,从而极大地提升地理实体在遥感影像中的辨识度。所提的地学知识图谱构想,正是围绕人类的地学知识为核心展开,瞄准传统算法思维中地学知识应用不足的痛点,理应可以大幅提升遥感大数据的解译精度和实用性。
03
深化地学规律认知
地学知识图谱借助多尺度地理实体将多种地学知识进行交叉融合的过程,这不仅是一个数据性知识校准的过程,同时也是一个创造和发现新知识的过程。这种伴随着新知识的创造和认知角度的丰富,地学规律的认知也必然会越来越深入,例如山地垂直带谱就是植被专题图与海拔数据融合的深度认知结果。此外,地学知识图谱借助不同类型的图模型表达,打通了数据到规律认知的推理链条,实现地学规律认知的数据驱动过程。这可以有效避免人们在进行规律总结时的主观认知偏见带入的偏差,让地学规律获取不以个人的意志为转移,从而更加可靠。另外,规律性知识能够反过来指导数据性知识获取更加精准,从而进一步获取更加深入的规律性知识。规律性知识能够在这种迭代循环认知的过程中,随着知识的积累不断深入。
针对算法思维在遥感大数据分析中越加凸显的困境,我们提出一种以地学知识为核心的地学思维构想——地学知识图谱。该构想将地学知识进行层次化分类、图模型表达,以及各种层次知识的关联推理,进而赋予其地学知识查询检索、推理校准、知识拓展等功能,从而促进地学知识精准化、实现遥感大数据地学知识获取精准性和实用性以及地学规律认知深化。
实现全自动化的面向遥感大数据分析的地学知识图谱构想,还需要很多的关键技术难题需要攻克,甚至需要一些理论方面的突破,例如概念、规律性知识的图模型表达以及知识层级间的推理。但其中蕴含的一些以地学知识为核心的遥感分析思维方式思路,例如地学知识核心化、知识分层、数据驱动、迭代优化等,确实是可以借鉴现有GIS技术应用于遥感解译。希望本文提出的这种思路在遥感大数据分析时代的未来发展方向能够有所启示和促进。
原文请在期刊官网或中国知网下载
王志华 副研究员
中国科学院地理科学与资源研究所副研究员,硕士生导师,主要从事地理学、景观生态学、人工智能、计算机视觉等相结合的遥感大数据挖掘理论方法与应用分析研究。主持国家自然科学基金2项。在国内外学术期刊已发表论文40余篇,授权发明专利6项,获软件著作权1项。
杨晓梅 研究员
中国科学院地理科学与资源研究所研究员,博士生导师,长期从事遥感影像地学理解与分析计算以及海洋海岸带遥感与地理信息系统综合集成与应用等方向的研究与系统开发。主持完成国家863计划项目、国家重大专项、国家自然基金、国际合作等多项课题,在国内外学术期刊已发表论文100余篇,出版《遥感影像地学理解与分析》、《海岸带遥感综合技术与实例研究》等理论专著6部。2005年获国家科技进步二等奖。
周成虎 院士
中国科学院地理科学与资源研究所研究员,中国科学院院士、国际欧亚科学院院士,博士生导师。主要从事地图学与地理信息系统研究。在数字地貌制图、时空大数据分析与预测等方面完成了系统性工作,提出了全息位置地图、全空间信息系统的新概念新理论,引领着我国地理信息系统与导航位置服务的学科与技术发展。
全文可在中国知网或学报官网下载
《地球信息科学学报》是中国科学引文数据库(CSCD)核心期刊、中国科技核心期刊、全国中文核心期刊。2020年《中国科技期刊引证报告(核心版)》和《中国学术期刊影响因子年报》均显示,学报影响因子位列测绘科学技术期刊第2名。在2020年版中国科学院科学出版基金中文科技期刊排行榜中,学报排名第25位。
欢迎国内外学者踊跃赐稿,欢迎国家重大科研项目、国内外学术会议组织专辑专栏。
官网网址
http://www.dqxxkx.cn/CN/1560-8999/home.shtml
联系电话
010-64889219(稿务)
010-64888891(编务,财务)
邮 箱
dqxxkx@igsnrr.ac.cn
策划创意:耿艳辉
编辑:耿艳辉,王志华
制作:D+工作室
校对:黄光玉,蒋树芳
封面图片来源:https://pixabay.com